普及一个数分的领域,可能对你有用
↑关注+星标,听说他有点意思
全文共2946字,阅读全文需8分钟
大家好,我是小一
前一段时间有参加过天池金融风控的比赛,感觉还挺有意思的。
自己抽空也对金融风控领域做了深入研究,这篇就主要是我自己对于这个领域的理解。
全文无代码
先来看张图
解释一下:狡猾的狐狸信用不够,猫老师拒绝向其记账。
金融风控
先来说说什么是金融风控
金融风控与电商、广告等场景的风控不同,金融风控主要是涉及到钱的安全,决定了公司的营收甚至是公司的生命线。
如果一家月放款额100亿的公司违约率上升1个点,这个损失应该不算小吧。相反如果通过风控的手段将违约率降低,想必大家的工资也会有所上升。
目前金融领域有:传统金融、互联网金融和消费金融
。
这三个金融场景的区域是什么啊?
是这样的,传统金融一般指的是国家的四大传统金融机构,包括银行、信托、保险和证券
。
其中银行负责存贷、理财;信托负责投资、融资;证券负责企业上市与股票相关;保险更多的是做人寿保障之类的。
互联网金融则指的是通过互联网技术实现资金流通的金融活动,包括互联网理财公司、互联网借贷公司和互联网支付公司等。
因为互联网金融在之前并没有相关的正式金融牌照,所以像一些P2P之类的理财、借贷公司就比较疯狂,经常有暴雷事件发生。
消费金融更多的是指能够提供消费类贷款的持牌的非银行类金融机构,比如像xxx呗xx白条
等都属于这种。你可以使用自己的个人信息担保,承担一定的利息进行透支消费。
消费金融更多的是使用用户个人信用,例如芝麻信用等,根据用户的历史消费情况给予一定的透支额度。
可以看到,在上面三种金融机构都可以通过风控技术做到两点:
「一是可以减少因违约等产生的坏账,二是可以通过放贷促进消费,提高企业的利润」。
风控技术这么厉害的吗?它到底是怎么做到的?
先说说它的缺点,这个比较明显
「首先,风险具有滞后性。」
用户借款后至少要一个月才能知道是否会违约,甚至很多用户在还了半年甚至一年之后才违约。
再者,一般线上获客成本较高且比较麻烦,所以为了提高转化,在授信、申请、审核等环节,线上的操作一般都是实时的。
比如当你在网上提交了自己的相关申请资料,可能几分钟之内后台就会通过你的各项历史数据对你的信用情况作出评价,或因为信用分太低而拒绝你,或通过审核并且给予你一个初始借贷额度。
「其次,风控的业务性复杂」
风控领域中,数据源是非常丰富的,包括有运营商、互联网、征信等等各种数据,相当庞大。
而且,可以使用的正负样本数据的占比及其不均衡的,违约的人总是极少一部分人
,否则金融机构早都被骗破产了吧。
风控也是面向业务的,最终的特征、评分等都需要能够和用户对应上,需要较强的可解释性。
总结一下
风控最原始的思路就是根据一个用户的信息,得到这个人是 “会还钱” 还是 “不会还钱”。
到后面有了根据一个用户的信息,判断该不该给他借钱,借多少合适?
以及最后需要根据用户的借贷记录,判断用户会不会还款,应不应该提醒催收等。
什么是风控?
上面我们提到的会不会还钱,该不该借钱,要不要催收都是二分类问题。
而风控的目的主要通过监督算法构建违约概率预测模型进行二分类
,通常还使用无监督学习、深度学习算法进行辅助工作。
而评分卡模型其实就是希望能将一系列的个人信息输入模型,然后得到一个用户的还款概率。
概率越大,评分越高,越容易还钱。概率越小,评分越低,越容易跑路。
典型例子就是芝麻信用分。
风控的整体流程
1. 数据采集
一般的数据采集都包括免费数据和付费数据,风控也是。
免费数据包括:运营商、开源数据、网站数据等可以直接拿到的数据,当然,爬虫采集也算是免费数据。
付费数据包括:黑名单数据、征信数据、互联网公司的数据等等
2. 反欺诈
反欺诈主要包括反欺诈规则和反欺诈模型
。
反欺诈规则对应的是用户在借贷之前系统会先进行准入规则的筛选以及PreA模型等进行有针对性的预过滤。
例如针对抵押借贷、白户借贷等有相应的的数据分析方法和过滤规则。
而反欺诈模型也和一般模型一样,通过用户的特征属性和欺诈标签进行建模
。
另外也有通过深度学习、社交网络算法、在线学习等手段辅助提高反欺诈模型的准确率。
但是因为欺诈标签不好得到,难以进行有监督的模型训练,所以反欺诈这一块大多还是采用欺诈规则,也就类似于专家系统的专家规则一样。
3. 策略挖掘
策略:通过相应的分析和挖掘手段
,得到不同字段、区间之间的各项指标,并找到最佳分段区间,映射成相应的用户信用分
对比芝麻信用分,我们知道用户信用评分是有一个区间,如果是落在信用很好的区间,系统一般都会直接通过。
策略挖掘主要涉及到单变量分析和关键指标计算
,例如Vintage、滚动率、迁移率、WOE值、IV值等
4. 风控模型
风控模型主要包A/B/C卡模型
,根据发生的时间点不同进行划分。
A卡【申请评分卡】主要部署在贷前阶段,主要作用有3个:参与决策、授信额度、初始利率
。
A卡是贷前审核的基础模型,一般用到的指标包括两方面:自身属性(通讯录,个人信息等)和第三方属性(历史信贷、运营商信息、消费记录、信用记录(芝麻分)、多头借贷等),通常A卡建模会使用拒绝推断
B卡【行为评分卡】主要部署在贷中阶段,主要是对用户贷中行为的评判
,防控贷中风险,同时对用户额度做合理的调整。
主要用到的指标除了A卡中指标外,还包括用户的行为属性(登录、浏览、消费、借款、还款、逾期等)
C卡【催收评分卡】主要部署在贷后阶段,是对逾期用户预测催收反应的概率
,从而采取相应的催收策略与措施
可以看到,三种模型产生y的方式不同。
A卡是根据用户历史逾期天数中最大的天数定义y;B卡通过多期借款中逾期最大的一次定义y;C卡一般根据业务不同而不同(例如内催、外催等)。
另外,风控模型主要是通过监督算法构建违约概率预测模型
在实际的项目中会存在样本不均衡、缺失值等各种问题,通常也会使用深度学习、无监督学习等进行辅助处理。
5. 催收
催收作为风控的最终手段,可以通过催收记录的文字描述、触达率、欺诈标签等产生很多对模型有帮助的数据,并且坏账客户会被拉入黑名单。
催收涉及的主要算法是催收模型相关的,可能是有监督、无监督算法,也有社交网络算法构造的失联模型等。
6. 部署与监控
什么是模型部署?
评分卡模型部署可以根据模型变量生成对应评分表,业务人员根据相应的变量区间对应相应的评分值,最终的分值相加即为用户得分。
集成模型因为并非所有变量具有可解释性,并且部分变量无法直观与评分值形成映射表,所以在部署的时候一般都会通过相应的参数设定阈值,在线生成用户得分
那什么又是模型监控?
主要是检测模型是否正常运行,比如,模型分数是否正确,分数以及变量值是否存储,模型分数与利率(额度)策略是否匹配等。
模型分数(概率)分布是否与模型数据集偏差较大,模型拒绝率等。
在后期积累一定线上用户后可评估线上模型的AUC、KS,并且与线下进行比较,衡量模型在线上的实际效果。
模型监控也有很多指标可以进行衡量,例如:一致性监控、PSI、CSI、排序性、区分度
等等。
说点题外话
金融风控领域是数据分析领域更深入的一个应用,就好比于数据分析是树干,金融分控只是其中的某片叶子。
具体一点,像数据采集、数据清洗、特征工程这些都是数据分析领域常用的技术,只不过分析的业务不同,对应的指标、规则也发生了变化。
最后,金融风控的整体流程图如下: